Implementing activation steering

Knowledge Editing等と同様にLLM内部を直接弄る概念

https://scrapbox.io/files/66c9ef24a995c8001d7e6097.png

内部モデルのアクティベーションにベクトルを追加し、プロンプトと同様な（ただし、場合によってはより効果的な）方法でモデル出力に影響を与えるだけです。

これは直接ベクトルを足し合わせるイメージか

TransformerLensを使って行うこともできるっぽい

PyTorchのregister_forward_hookはいたるところで使われているんだな

code:python

# define a steering vector

_ = model("Love")

act_love = model.layerslayer_id.output

_ = model("Hate")

act_hate = model.layerslayer_id.output

steering_vec = act_love-act_hate

面白い！本当にただベクトル引っこ抜いてるだけだ